智能论文笔记

Evaluating Novel Mask-RCNN Architectures for Ear Mask Segmentation

Saurav K. Aryal , Teanna Barrett , Gloria Washington

分类：计算机视觉 | 人工智能

2022-11-05

The human ear is generally universal, collectible, distinct, and permanent. Ear-based biometric recognition is a niche and recent approach that is being explored. For any ear-based biometric algorithm to perform well, ear detection and segmentation need to be accurately performed. While significant work has been done in existing literature for bounding boxes, a lack of approaches output a segmentation mask for ears. This paper trains and compares three newer models to the state-of-the-art MaskRCNN (ResNet 101 +FPN) model across four different datasets. The Average Precision (AP) scores reported show that the newer models outperform the state-of-the-art but no one model performs the best over multiple datasets.

translated by 谷歌翻译

Intrusion Detection Systems Using Support Vector Machines on the KDDCUP'99 and NSL-KDD Datasets: A Comprehensive Survey

Mikel K. Ngueajio , Gloria Washington , Danda B. Rawat , Yolande Ngueabou

分类：人工智能 | 机器学习

2022-09-12

随着网络攻击和网络间谍活动的增长，如今需要更好，更强大的入侵检测系统（IDS）的需求更加有必要。 ID的基本任务是在检测Internet的攻击方面充当第一道防线。随着入侵者的入侵策略变得越来越复杂且难以检测，研究人员已经开始应用新颖的机器学习（ML）技术来有效地检测入侵者，从而保留互联网用户对整个互联网网络安全的信息和整体信任。在过去的十年中，基于ML和深度学习（DL）架构的侵入检测技术的爆炸激增，这些架构在各种基于网络安全的数据集上，例如DARPA，KDDCUP'99，NSL-KDD，CAIDA，CAIDA，CTU--- 13，UNSW-NB15。在这项研究中，我们回顾了当代文献，并提供了对不同类型的入侵检测技术的全面调查，该技术将支持向量机（SVMS）算法作为分类器。我们仅专注于在网络安全中对两个最广泛使用的数据集进行评估的研究，即KDDCUP'99和NSL-KDD数据集。我们提供了每种方法的摘要，确定了SVMS分类器的作用以及研究中涉及的所有其他算法。此外，我们以表格形式对每种方法进行了批判性综述，突出了所调查的每种方法的性能指标，优势和局限性。

translated by 谷歌翻译

LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large Language Models

Chan Hee Song , Jiaman Wu , Clayton Washington , Brian M. Sadler , Wei-Lun Chao , Yu Su

分类：人工智能 | 自然语言处理 | 计算机视觉 | 机器学习 | 机器人

2022-12-08

This study focuses on embodied agents that can follow natural language instructions to complete complex tasks in a visually-perceived environment. Existing methods rely on a large amount of (instruction, gold trajectory) pairs to learn a good policy. The high data cost and poor sample efficiency prevents the development of versatile agents that are capable of many tasks and can learn new tasks quickly. In this work, we propose a novel method, LLM-Planner, that harnesses the power of large language models (LLMs) such as GPT-3 to do few-shot planning for embodied agents. We further propose a simple but effective way to enhance LLMs with physical grounding to generate plans that are grounded in the current environment. Experiments on the ALFRED dataset show that our method can achieve very competitive few-shot performance, even outperforming several recent baselines that are trained using the full training data despite using less than 0.5% of paired training data. Existing methods can barely complete any task successfully under the same few-shot setting. Our work opens the door for developing versatile and sample-efficient embodied agents that can quickly learn many tasks.

translated by 谷歌翻译

Feature Selection for Classification with QAOA

Gloria Turati , Maurizio Ferrari Dacrema , Paolo Cremonesi

分类：机器学习

2022-11-05

Feature selection is of great importance in Machine Learning, where it can be used to reduce the dimensionality of classification, ranking and prediction problems. The removal of redundant and noisy features can improve both the accuracy and scalability of the trained models. However, feature selection is a computationally expensive task with a solution space that grows combinatorically. In this work, we consider in particular a quadratic feature selection problem that can be tackled with the Quantum Approximate Optimization Algorithm (QAOA), already employed in combinatorial optimization. First we represent the feature selection problem with the QUBO formulation, which is then mapped to an Ising spin Hamiltonian. Then we apply QAOA with the goal of finding the ground state of this Hamiltonian, which corresponds to the optimal selection of features. In our experiments, we consider seven different real-world datasets with dimensionality up to 21 and run QAOA on both a quantum simulator and, for small datasets, the 7-qubit IBM (ibm-perth) quantum computer. We use the set of selected features to train a classification model and evaluate its accuracy. Our analysis shows that it is possible to tackle the feature selection problem with QAOA and that currently available quantum devices can be used effectively. Future studies could test a wider range of classification models as well as improve the effectiveness of QAOA by exploring better performing optimizers for its classical step.

translated by 谷歌翻译

Leveraging Synthetic Data to Learn Video Stabilization Under Adverse Conditions

Abdulrahman Kerim , Washington L. S. Ramos , Leandro Soriano Marcolino , Erickson R. Nascimento , Richard Jiang

分类：计算机视觉

2022-08-26

视频稳定在提高视频质量方面起着核心作用。但是，尽管这些方法取得了很大的进展，但它们主要是在标准天气和照明条件下进行的，并且在不利条件下的性能可能会差。在本文中，我们提出了一种用于视频稳定的综合感知不良天气鲁棒算法，该算法不需要真实数据，并且只能在合成数据上接受培训。我们还提出了Silver，这是一种新颖的渲染引擎，可通过自动地面提取程序生成所需的训练数据。我们的方法使用我们的特殊生成的合成数据来训练仿射转换矩阵估计器，避免了当前方法面临的特征提取问题。此外，由于在不利条件下没有视频稳定数据集，因此我们提出了新颖的VSAC105REAL数据集以进行评估。我们将我们的方法与使用两个基准测试的五种最先进的视频稳定算法进行了比较。我们的结果表明，当前的方法在至少一个天气条件下的表现差，即使在一个具有合成数据的小数据集中培训，我们就稳定性得分，失真得分，成功率和平均种植方面取得了最佳性能考虑所有天气条件时的比率。因此，我们的视频稳定模型在现实世界的视频上很好地概括了，并且不需要大规模的合成训练数据来收敛。

translated by 谷歌翻译

HTML版本

Explainable AI (XAI) in Biomedical Signal and Image Processing: Promises and Challenges

Guang Yang , Arvind Rao , Christine Fernandez-Maloigne , Vince Calhoun , Gloria Menegaz

分类：机器学习 | 人工智能 | 计算机视觉

2022-07-09

人工智能在学科和领域之间普遍存在，生物医学图像和信号处理也不例外。对该主题的增长和广泛的兴趣引发了一项巨大的研究活动，这反映在指数的研究工作中。通过研究大规模和多样化的生物医学数据，机器和深度学习模型彻底改变了各种任务，例如建模，分割，注册，分类和合成，并优于传统技术。但是，将结果转化为生物学/临床解释信息的困难是阻止其在现场的全部剥削。可解释的AI（XAI）试图通过提供使模型可解释并提供解释的手段来填补这一翻译差距。到目前为止，已经提出了不同的解决方案，并且正在增强社区的兴趣。本文旨在在生物医学数据处理中提供有关XAI的概述，并指出即将在2022年3月出现的IEEE Signal Processing杂志的生物医学图像和信号处理深度学习的特刊。

translated by 谷歌翻译

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models

Aarohi Srivastava , Abhinav Rastogi , Abhishek Rao , Abu Awal Md Shoeb , Abubakar Abid , Adam Fisch , Adam R. Brown , Adam Santoro , Aditya Gupta , Adrià Garriga-Alonso

分类：自然语言处理 | 人工智能 | 机器学习 | (统计)机器学习

2022-06-09

语言模型既展示了定量的改进，又展示了新的定性功能，随着规模的增加。尽管它们具有潜在的变革性影响，但这些新能力的特征却很差。为了为未来的研究提供信息，为破坏性的新模型能力做准备，并改善社会有害的效果，至关重要的是，我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战，我们介绍了超越模仿游戏基准（Big Bench）。 Big Bench目前由204个任务组成，由132家机构的442位作者贡献。任务主题是多样的，从语言学，儿童发展，数学，常识性推理，生物学，物理学，社会偏见，软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号，Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为，跨越了数百万到数十亿个参数。此外，一个人类专家评估者团队执行了所有任务，以提供强大的基准。研究结果包括：模型性能和校准都随规模改善，但绝对的术语（以及与评估者的性能相比）；在模型类中的性能非常相似，尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分，而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标；社交偏见通常会随着含糊不清的环境而随着规模而增加，但这可以通过提示来改善。

translated by 谷歌翻译

Combining Genetic Programming and Particle Swarm Optimization to Simplify Rugged Landscapes Exploration

Gloria Pietropolli , Giuliamaria Menara , Mauro Castelli

分类：神经与进化计算

2022-06-07

传统的统计技术或元启发式学很难解决大多数现实世界的优化问题。主要困难与存在相当数量的局部Optima有关，这可能导致优化过程的过早收敛性。为了解决这个问题，我们提出了一种新型的启发式方法，用于构建原始功能的平滑替代模型。替代功能更容易优化，但保持原始坚固的健身景观的基本属性：全球最佳的位置。为了创建这样的替代模型，我们考虑通过自我调整健身函数增强的线性遗传编程方法。所提出的称为GP-FST-PSO替代模型的算法在搜索全局最优值和原始基准函数的视觉近似（在二维情况下）的视觉近似都可以达到令人满意的结果。

translated by 谷歌翻译

UniMorph 4.0: Universal Morphology

Khuyagbaatar Batsuren , Omer Goldman , Salam Khalifa , Nizar Habash , Witold Kieraś , Gábor Bella , Brian Leonard , Garrett Nicolai , Kyle Gorman , Yustinus Ghanggo Ate

分类：自然语言处理

2022-05-07

通用形态（UNIMORPH）项目是一项合作的努力，可为数百种世界语言实例化覆盖范围的标准化形态拐角。该项目包括两个主要的推力：一种无独立的特征架构，用于丰富的形态注释，并以各种语言意识到该模式的各种语言的带注释数据的类型级别资源。本文介绍了过去几年对几个方面的扩张和改进（自McCarthy等人（2020年）以来）。众多语言学家的合作努力增加了67种新语言，其中包括30种濒危语言。我们已经对提取管道进行了一些改进，以解决一些问题，例如缺少性别和马克龙信息。我们还修改了模式，使用了形态学现象所需的层次结构，例如多肢体协议和案例堆叠，同时添加了一些缺失的形态特征，以使模式更具包容性。鉴于上一个UniMorph版本，我们还通过16种语言的词素分割增强了数据库。最后，这个新版本通过通过代表来自metphynet的派生过程的实例丰富数据和注释模式来推动将衍生物形态纳入UniMorph中。

translated by 谷歌翻译

VocaLiST: An Audio-Visual Synchronisation Model for Lips and Voices

Venkatesh S. Kadandale , Juan F. Montesinos , Gloria Haro

分类：计算机视觉

2022-04-05

在本文中，我们解决了包含人脸和声音的视频中的唇彩同步问题。我们的方法是基于确定视频中的嘴唇运动和声音是否同步，具体取决于其视听对应得分。我们提出了一个基于视听的跨模式变压器模型，该模型在标准的唇读语音基准数据集LRS2上胜过音频视频同步任务中的几个基线模型。尽管现有的方法主要集中在语音视频中的唇部同步上，但我们也考虑了歌声的特殊情况。由于持续的元音声音，唱歌声音是同步的更具挑战性的用例。我们还研究了在唱歌语音的背景下在语音数据集中训练的LIP同步模型的相关性。最后，我们使用在唱歌语音分离任务中通过唇部同步模型学到的冷冻视觉特征，以优于训练有素的端到端的基线音频视觉模型。演示，源代码和预训练的模型可在https://ipcv.github.io/vocalist/上找到。

translated by 谷歌翻译